查看原文
其他

【技术沙龙干货分享】第1期-AI技术在58生活服务场景的应用实践

58技术 58技术 2022-03-15
AI技术正在驱动行业变革,58集团也正加速AI应用在房产、招聘、二手车、本地服务、58同镇、金融等业务的落地。在传统的搜索、推荐、广告、信息质量、安全、销售商机分配等方向,引入了深度学习技术,提高了连接效率和用户体验;在新型AI应用上,落地了智能客服、语音对话机器人、语音质检、写稿机器人等产品,提高了人效;在AI中台能力建设上,打造了支持机器学习和深度学习功能的一站式AI算法平台,提高了算法研发效率。未来58将持续加速创新,借助AI技术不断提高产品与服务体验,让用户的生活更加简单美好。



2019年10月19日,由58技术委员会联合HR神奇学院主办的对外技术沙龙首期圆满落幕,在此特别鸣谢DataFun的大力支持和配合。第一期“AI技术在58生活服务场景的应用实践”在望京科技园举办,分享了58同城在人机语音对话、广告算法、推荐系统和AI算法平台方面的技术实践。


人机语音对话技术在58同城的实践


人机语音对话技术目前主要使用在58同城TEG架构平台线AI Lab研发的语音机器人上,语音机器人具有自动电话拨打、多轮语音交互、智能意向判断等多种功能,目前已在58同城多个业务场景下进行实践使用。如在电话销售、产品服务推广、信息审核、语音通知等。语音机器人在助力销售、运营和客服提效取得了显著的成效。



语音机器人包括基础服务层、逻辑层、编辑运营层、接入层和WEB接入平台,具体如下图所示:




基础服务层: 主要为语音机器人提供基础的通话和语音能力支持,包括语音通话模块和语音识别/合成模块。语音通话模块基于SIP协议与第三方SIP供应商实现SIP信令建立、语音编解码、语音上/下采样等功能,可实现机器自动拨打电话,自动判断通话状态。语音识别/合成模块集成封装了第三方语音识别/合成接口,用于话术的合成、实时语音转文本的功能。详细实现可参考<<智能语音机器人中的语音通话实践>>



逻辑层: 是语音机器人的核心部分,包括意图识别模块、对话交互模块和对话管理系统。意图识别包含单句意图识别和整轮意图识别。单句意图识别用于判断用户回复的每一句话的意图如肯定、否定、反问、提供信息等19种意图,单句意图识别判断正确与否直接影响到人机对话流程的流畅性,目前主要基于Bert , TextCNN文本分类技术进行单句意图识别; 整轮意图识别用于如销售场景的客户分层,通过完整的人机对话内容和用户行为判断用户的整体意向,如是否对销售内容感兴趣、是否为中性态度、是否表达不感兴趣。 对话交互模块与对话管理系统在话术设计逻辑的基础上,理解用户行为意图维护了整个对话流程,是实现多轮语音对话交互的核心,其中主要涉及的技术点有文本聚类、文本分类、文本相似度、实体识别等。详细实现可参考<<智能语音机器人中对话管理系统设计与实现>> <<语音意图在语音机器人中的应用>>


编辑运营层: 是一套集数据标注、效果评估、数据分析功能于一体的Web系统。编辑人员通过Web系统完成单句意图、整轮意图、语音识别等的标注工作,并定期进行数据分析和效果评测。同时标注数据用于单句意图、整轮意图、语音识别相关模型的迭代优化。


接入层: 包括实时外呼接口、WMB消息总线和结果回传接口。业务方调用实时外呼接口实现电话实时呼出,语音机器人外呼的结果数据如外呼状态、自定义标签等通过WMB消息总线传递给业务方,业务方拿到语音机器人传回的数据进行人工跟进并将跟进结果通过结果回传接口返回给语音机器人,实现数据的闭环。


WEB接入平台: 为业务方外呼任务接入提供可视化支持,包括账户管理、话术管理、外呼任务管理以及数据报表可视化等功能。


机器学习在58商业变现中的应用实践

58商业中台为前台招聘、房产、黄页、二手车、二手物品多个业务提供丰富的商业变现能力和解决方案,适配各个业务差异化的变现需求,商业的核心目标是基于“乐高”平台化和智能化双引擎的能力,构建健康可持续的商业生态,持续提升商业系统变现能力和效率,同时兼顾广告主效果、用户体验和平台收入平衡,实现多方共赢,助力前台业务更好更快发展。在乐高智能化能力建设过程中,机器学习算法发挥了重要的作用,下图从2C和2B纬度对商业智能化策略能力进行划分,这里重点介绍商业的智能出价(ocpc),广告检索策略和智能创意的实践和探索。



1. 智能出价ocpc是对竞价cpc(精准)和定价cpc(精选)的一个优化和改进,竞价cpc由广告主手动设置点击出价,定价cpc由平台统一定义一个点击的价格,二者都没有考虑到点击背后对广告主价值的差异,而ocpc由系统自动精准预估每一次点击的价值,用转化率来度量,根据转化率高低自动实现对点击价格的动态调整,解决了点击价格和点击价值不匹配的核心痛点。ocpc先后在黄页精准、二手车精选、招聘黄金展位落地,实现了收入和连接效果挂钩,稳定了客户投放效果,降低不同渠道流量成本gap,提升了优质流量收入占比等。ocpc策略核心可以用一个公式来表示,smart_bid=F(pcvr/Ecvr) * bid(约束条件:收入、连接数平稳, bid为原始客户出价或平台定价),这里要解决三个问题,pcvr的精准预估、基准Ecvr的测算和F调价函数的设计。pcvr预估考虑转化率在时间纬度上呈现一定的周期性和转化数据的稀疏性,我们先后采用时序预估LSTM算法和ESMM算法实现了对cvr的精准度量,Ecvr从“频道x流量来源”源纬度进行cvr统计平滑,F调价函数采用启发式算法,根据不同折扣上限和约束条件自动学习调价函数曲线。在推进过程中,策略、媒体和运营多方联动,业务侧积极响应和支持,最终实现ocpc在多个业务的平稳落地。

2. 广告检索策略主要完成广告和用户的精准匹配,实现广告触达用户的过程,这里面采用经典的“召回-粗排-精排”三段式检索流程,如下图所示。在广告召回阶段,针对不同场景选用不同的触发策略和算法组合,比如在搜索场景,我们对query进行语义扩展后进行关键词触发,可以增加广告扩触发能力,使用query和doc相关性算法CLSM进行相关性计算,用于相关性过滤和参与后续粗排和精排;在推荐场景(大类页feed、列表少无结果、列表feed、详情页)等,支持CF、画像、矩阵分解、深度向量等系列推荐召回算法从海量候选集中触发合适的广告。在广告粗排方面,策略由统计策略演变为粗排模型,粗排模型建模上,我们支持DSSM、item2vec等算法,用于对用户和帖子做embedding,通过用户向量和帖子向量的内积刻画相关性,同时也支持对双塔深度网络结构进行改造拟合点击率等目标,统一实现对多通道召回的海量广告候选集进行全局排序和粗选,其中冷启动用户向量采用人群向量进行刻画,新贴子向量采用同属性向量聚类生成,也尝试过对帖子属性组合进行编码输入神经网络进行item向量的学习表征,这个方法也可以解决新帖子向量刻画的问题。在广告精排方面,支持ctr、cvr、ctcvr、cpm和相关性等指标的预估,其中cpm和acp预估适用于DSP程序化交易场景。预估算法支持传统的LR、Xgb、FFM和深度学习算法集合,如Wide&deep,DeepFM,ESMM和DIN等。通过对广告检索各个环节算法和策略的持续迭代调优,在多个业务线取得了明显的收益,用户体验、点击率、收入等指标提升明显。
 

3. 创意制作和优化在广告营销中占据非常重要的作用,高质量的创意可以提升用户体验、点击率指标,同时也会让广告主的产品和服务在消费者心智和品牌认知过程中产生正向影响,结合黄页业务侧和DSP外投场景的需求,我们推出了智能创意平台,支持对图文创意进行自动化生成和智能优选,系统架构如下图所示,底层的创意数据包含素材库、模版库、创意数据、用户偏好数据和线上效果反馈回流数据,中间层为智能创意服务层,主要包含标签挖掘和文案生成,创意推荐和优选能力,创意中心提供创意编辑器,支持产品、运营和广告主直接对创意进行加工和生产,大幅度提高了创意制作的效率,同时创意平台也支持对广告主创意的全自动托管,包括创意的生成和优选。
 

4. 最后,总结一下商业中台在智能化能力建设方面的积累和布局,如下图所示,算法策略需要为业务服务,解决业务和客户痛点才会变得有价值,在乐高服务前台多个业务的过程中,我们总结出一个方法论,必须要重视商业产品的生态建设,健康可持续的商业生态才是一个平台走的更远的基石。以ocpc为主导,辅以预算控制和反作弊能力我们打造了健康的商业生态体系,同时也需要充分理解前台业务的特性,寻找最适合的提连接手段,才可以实现广告主、用户、平台多方共赢。


从零到一构建58招聘个性化推荐

58招聘是典型的双边平台,相比于业内大家常见的电商类、新闻类推荐,有双边均有有限资源且转化漏斗更深的特点。(业务简介如下图)

 

58招聘个性化推荐系统,深度结合业务特性,在算法策略及工程框架上经过不断优化迭代,构建了一套具备高性能、解耦工程算法依赖、策略灵活调控的系统框架,支持多技术方向同时开展策略优化,并能实时观察AB实验的指标对比。系统分为离线与在线两个部分,离线部分由数据层、挖掘模型层及存储层组成,在线部分由算法服务层与推荐引擎两部分组成,大体框架如下图:

 


本次分享核心围绕算法部分,介绍内容大致如下:


如何更好的理解用户真实意图?

1.低质量识别,招聘是严肃关系个人生计甚至国家民生的事情,质量保证是基础。低质量发布内容中往往存在暴露联系方式、低俗虚假文案。识别低质量内容主要挑战在于这些文案存在变形不成句,文字不清晰等特点。目前主要使用正则规则、NER命名实体识别、分类算法多种手段,可有效识别文本内容及用户行为的质量情况,进而使用在用户奖惩、资源分配等场景。该环节的关键词:举一反三,需思考及丰富各类变形策略,提升系统持续对抗识别能力。

2.知识图谱构建,使用NER命名实体识别、实体关系、知识推理等知识图谱核心技术,进一步挖掘大量文本的价值信息,完善内容结构化,提升系统的内容理解能力,同时构建招聘实体多维关系数据,加强对不同实体之间对招聘岗位进阶等的刻画理解。该环节的关键词:领域词库、样本增强,通过构建招聘领域词库,应用至Bi-LSTM+CRF的输入Embedding优化,提升实体识别指标;同时采用样本增强,降低对样本标注量级的过度依赖。
3.用户画像构建,使用用户在平台产生的文本内容及行为序列数据,先后使用了强业务结合的统计规则、传统机器学习LR+XGBoost的分类预测及基于行为序列的深度模型,构建了58招聘长短期画像,具备了刻画用户自然属性标签及招聘兴趣标签的能力,直接服务于个性化推荐系统场景。

如何从海量信息中召回TopN内容?


围绕个体、群体及全局三大类召回,不断优化迭代召回策略,从初期的基于内容上下文的检索召回演变至当前以上下文+用户画像的精确召回、实时物品协同过滤召回模型及Embedding向量化召回为核心的多路召回机制,充分挖掘用户行为数据价值,提高系统对行为稀疏场景、用户冷启动的表达能力。

如何构建排序策略返回头部信息?
1.算法模型方面,经历了基于LR模型的CTR预估到基于LR+XGBoost模型的CTR+CVR预估至基于LR+XGBoost/wide&deep/deepFFM模型的CTR+CVR+FBR预估三个阶段,并且基于业务双边特性,在重排序阶段增加质量因子、活跃因子、匹配因子的调控机制。样本方面,采用用户详情页停留时长及直接使用用户行为序列进行正负样本的采集及修正,在离线及线上取得了不错效果; 特征方面,反馈统计特征的置信度处理、增加用户兴趣画像匹配特征及近实时类反馈特征,取得了不错的增长; 模型方面,三个阶段AUC在小数点后百分位增长2~3个百分点,通过更复杂的模型能够一定程度提升高维特征刻画能力,当前的线上整体收益 特征>样本>算法,下一步将主要在多任务学习上开展探索实践。
2.工程方面,从最初的简单框架到构建了特征Pipeline、模型自动更新服务及灵活可配置的AB实验框架,分别在减少重复特征工程提高迭代效率、高扩展性线上模型服务降低维护成本及解藕实验开展工程算法强依赖方面提升了整体系统框架的易用性,有效保障策略的快速迭代。

如何在展示层开展优化进一步发挥推荐威力?

好的推荐系统,还需要与展示层做好联动配合,才能更有效发挥业务价值。在该部分,基于不同预估模型的特征重要度表现,我们一方面将原本列表页不可见的重要特征进行有效组织,实现从隐性->显性的特征呈现变化,给用户更有价值和区分度的信息辅助其决策,同样也直接提升列表内容的多样性提升体验;另一方面,针对部分内容标题太单一的问题,我们使用NLG文本生成技术,借助结构化的岗位、薪酬、福利、工作地等信息,自动生成候选集短文本,供客户使用替换原有标题,实验探索也取得了正向收益。


基于Kubernetes的58同城深度学习算法平台


深度学习算法平台是58人工智能平台(详细介绍可参考《58人工智能平台WPAI设计与实现》)的一部分,实现对GPU、CPU资源的统一管理,支持TensorFlow、PyTorch等框架的模型代码调试与模型训练,提供TensorFlow、PyTorch及自定义框架的在线推理服务,其整体架构如下图所示。

 


整个平台包括硬件层、集群管理层、算法层、WEB管理层、在线推理服务等。硬件层提供GPU/CPU计算资源,由Kubernetes统一管理;集群管理层负责离线训练和在线推理任务POD的统一调度;算法层通过TensorFlow、PyTorch等框架实现DNN、CNN、RNN等深度学习模型的封装;WEB管理层提供统一的操作界面;在线推理服务实现将模型应用于生产环境。

在线推理服务基于TensorFlow-Serving、PyTorch、Seldon、gRPC和五八自研的RPC框架SCF实现,通用性高,支持TensorFlow、PyTorch及用户自定义模型的GPU/CPU推理。详细实现可参考《58深度学习在线预测服务的设计与实现》。为提高模型在GPU/CPU上的推理性能,平台进行了一系列优化措施。平台上线TensorRT组件加速GPU推理,在OCR检测、图像分类等模型上取得了显著效果;提供GPU上模型混合部署功能,有效解决小流量模型的GPU资源浪费问题;在CPU推理上应用MKL版本推理框架,大幅缩短CPU上的推理耗时。

总结
本次沙龙就人机语音对话、广告算法、推荐系统和AI算法平台四个方面进行分享,几位嘉宾老师详细阐述了相关AI技术在58具体业务场景下的应用和落地情况,分享了使用的经验和踩过的坑,并和与会的同行进行了深入的交流探讨。本次活动取得了圆满成功,为58对外技术沙龙系列分享打下了坚实的基础,我们将在11月中旬举办第二期,下期主题为“IM技术在58同城的应用实践”,敬请关注。


点击左下角【阅读原文】下载本期技术沙龙完整分享资料

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存